基于DFTMAX-Ultra实现低引脚数、低成本、低功耗DFT设计

SNUG 2017 (DFT专题) 2017 13 页

基于DFTMAX-Ultra实现低引脚数、低成本、低功耗DFT设计

会议: SNUG 2017 (DFT专题) 作者: 王辉公司: 北京中电华大电子设计有限责任公司 CEC Huada Electronic Design Co., Ltd. 地点: 北京, 中国页数: 13 图片数: 7 源文件: SNUG_TPC_DFT_Unknown_基于Synopsys DFTMAX Ul_paper.pdf

第1页 — 标题页

基于DFTMAX-Ultra 实现low-pin、low-cost、low-power DFT 设计

(Realize low-pin & low-cost & low-power DFT design using DFTMAX-Ultra)

作者: 王辉公司: 北京中电华大电子设计有限责任公司地点: 北京, 中国

第2页 — 摘要 (Abstract)

中文摘要

随着设计的复杂化，更快的频率，更小尺寸的工艺，使得越来越多的缺陷（包括Stuck-At 故障模型、AC 故障等）需要通过SCAN 扫描测试来帮助检测。

智能卡 (Smart Card) 领域一直追求 low-pin（低引脚数）、low-power（低功耗）和 low-cost（低成本），在SCAN设计方面也是一样。传统的Scan设计和基于DFTMAX的设计受到IO限制，很难实现low-pin、low-power和low-cost的DFT设计。

而基于DFTMAX Ultra的DFT设计仅需要增加很少的电路就能实现Scan测试的压缩和解压缩功能，解除了高压缩比需要更多IO数量的限制。同时在低功耗控制上配合Power-Aware DFT and ATPG技术也有卓越表现，使得不用额外修改电源系统设计就可以让Scan测试时功耗控制在供电范围内。

关键词: Scan, DFTMAX Ultra, low-pin, low-power, low-cost, Power-Aware DFT and ATPG

第3页 — 目录 (Table of Contents)

正文目录

1. 简介 (Introduction) 2. 设计方案制定 (Design Plan) - 2.1 Low-pin — 低引脚数方案 - 2.2 Low-cost — 低成本方案 - 2.3 Low-power — 低功耗方案 3. 设计流程 (Design Flow) 4. 分析结果 (Analysis Results) - 4.1 Low-pin结果 - 4.2 Low-cost结果 - 4.3 Low-power结果 - 4.4 Coverage结果 - 4.5 Area结果 5. 一些问题及解决 (Issues and Solutions) - 5.1 Decompressor功耗控制 - 5.2 压缩模式调试迭代时间长 - 5.3 Low-power带来的测试时间加长和Coverage降低 6. 结论及建议 (Conclusions and Recommendations) 7. 参考文献 (References)

图表目录

图片: - 图片1: Tradition Mode and DFTMAX Ultra Architecture (传统模式与DFTMAX Ultra架构) - 图片2: Power-Aware DFT (功耗感知DFT) - 图片3: Low-Power Fill (低功耗填充) - 图片4: Tradition Mode and DFTMAX Ultra Flow (传统模式与DFTMAX Ultra流程) - 图片5: 芯片管脚 (Chip Pins) - 图片6: 扫描压缩与时间变化的趋势 (Scan Compression vs Time Trend) - 图片7: Power-Aware DFT在Shift阶段平均功耗 (Average Power During Shift) - 图片8: 压缩模式下Shift阶段翻转率箱线图 (Toggle Rate Box Plot During Shift) - 图片9: Normal模式下压缩比对Coverage影响 (Compression Ratio vs Coverage in Normal Mode)

表格: - 表格1: Tradition Scan Test Time (传统扫描测试时间) - 表格2: 4Pin DFT管脚列表 (4-Pin DFT Pin List) - 表格3: 测试时间列表 (Test Time List) - 表格4: 压缩模式下Shift阶段翻转率表 (Toggle Rate During Shift - Compressed Mode) - 表格5: PTPX仿真功耗表 (PTPX Simulation Power Table) - 表格6: Power-Aware DFT and ATPG在压缩和非压缩模式覆盖率 (Coverage in Compressed/Non-Compressed Mode)

第4页 — 表格目录 (List of Tables)

表格目录

表格1: Tradition Scan Test Time (传统扫描测试时间) 表格2: 4Pin DFT管脚列表 表格3: 测试时间列表 表格4: 压缩模式下Shift阶段翻转率表 表格5: PTPX仿真功耗表 表格6: Power-Aware DFT and ATPG在压缩和非压缩模式覆盖率

第5页 — 1. 简介 & 2. 设计方案制定

1. 简介

随着半导体工艺的发展，智能卡芯片的规模越来越大，工艺尺寸越来越小，对产品质量的要求也越来越高。智能卡芯片不仅应用在SIM领域、金融社保领域，也应用在芯片银行卡上。工艺从传统的0.25um工艺进步到55nm工艺，可靠性上从10万次上升到20万或30万次，同时在质量上提出了更高的要求。而这些都对芯片测试成本产生了巨大的冲击——测试时间变长，使芯片测试成本增加。

鉴于上述原因，如何在不损失测试质量的前提下，尽可能缩减测试成本，是整个半导体行业普遍关注的课题。

降低测试成本的途径有： - 合理优化测试，减少测试时间 - 减少pin count，提高同测数 - 降低测试功耗，以减少供电pin和对测试机的要求

Synopsys DFTMAX Ultra工具的扫描压缩设计技术，不仅实现了扫描链压缩技术，也解除了压缩比对Pin count的要求，配合Power-Aware DFT and ATPG技术最终实现了low-pin、low-cost、low-power DFT设计。

本文主要介绍使用DFTMAX Ultra工具实现智能卡芯片的DFT测试解决方案，同时对测试结果进行比较和分析。

2. 设计方案制定

2.1 Low-pin (低引脚数)

随着Nano-SIM的广泛应用，智能卡触点由8个减少为6个，除去电源和地，只有4个触点可用于Scan测试。而传统SCAN至少需要5个PIN：Scan_in、Scan_out、Scan_clock、Scan_en 和 Test_mode。

- 通过Test_mode内置化可以减少一个PIN——利用IO上发送一组特殊的序列组合激发内部的Test_mode信号，从而进入Scan模式。 - 基于DFTMAX Ultra的扫描压缩技术解放了对pin count的限制，最少4个IO即可实现，满足了智能卡4pin测试的需求。这样可以减少测试时占用的数字通道数量，使得更多的芯片可以同时测试，提高了同测数，也就减少了测试时间。

2.2 Low-cost (低成本)

由于智能卡PIN数少，因此传统SCAN只能实现一条Scan Chain。而1~2万个触发器在一条Scan Chain测试，99%以上的时间都耗费在Shift in和Shift out上。如表格1所示，一个151K左右规模的芯片，采用1条Scan Chain在10MHz测试时钟频率下，测试时间在1秒以上，这是很难接受的。

表格1: Tradition Scan Test Time (传统扫描测试时间)

Project	Gate Count	IOs	Chains	Coverage	Test Time
1	182k	24	6	97.26%	240ms
2	341k	19	2	98.53%	810ms
3	151k	8	1	98.29%	1120ms
4	300k	9	2	98.35%	931ms

从表格1可以看出，Scan Chain数量越少，测试时间越长。项目3仅有1条Scan Chain，导致测试时间高达1120ms。

第6页 — 2.2 Low-cost (续) & 2.3 Low-power

2.2 Low-cost (续)

Synopsys DFTMAX Ultra的扫描压缩技术完美地解决了这个问题。

图片1: Tradition Mode and DFTMAX Ultra Architecture

传统模式 vs DFTMAX Ultra 架构对比：

- Tradition Mode (传统模式): Scan_In → 单条Scan_Chain → Scan_Out，需要Scan_Clock + Scan_en - DFTMAX Ultra模式: Scan_In → Decompressor(解压缩器) → 内部多条Scan_Chain (Scan_Chain1, Scan_Chain2, Scan_Chain3, Scan_Chain4, Scan_Chain5, ..., Scan_Chain N) → Compressor(压缩器) → Scan_Out，仅需Scan_Clock + Scan_en

核心机制: 通过内部产生多条Scan Chain，减少每条Scan Chain的长度，能够有效减少测试时间。同时增加Decompressor将输入数据解压缩到内部各条扫描链，以及Compressor将多路输出数据压缩为一路输出，因此只需4个pin即可实现高压缩比的设计。

2.3 Low-power (低功耗)

智能卡芯片通常规模不大，正常工作时的功耗也比较低，因此供电系统也只需满足正常应用即可。但Scan测试时所有内部DFF同时翻转的功耗会让供电系统产生下冲毛刺，一旦内部逻辑电压低于器件正常工作电压的下限，则无法保证其时序的正确。因此一直以来Scan模式都需要额外的供电管脚来补偿供电。如何降低Scan测试时功耗，是另一个需要解决的问题。

Synopsys的Power-Aware DFT and ATPG可以帮助解决这个问题。

图片2: Power-Aware DFT

Power-Aware DFT通过增加Flop Gating（触发器门控）以减少Scan Shift时的开关活动(Switch)，来达到减少功耗的目的。

第7页 — 2.3 Low-power (续) & 3. 设计流程

2.3 Low-power (续)

相关命令如下:

(1) Scan Toggling Suppression (扫描翻转抑制):

set_scan_suppress_toggling \
    -selection_method auto \
    -total_percentage_gating

(2) ATPG Capture Constraints (ATPG捕获约束):

set_atpg –power_budget < | min> [-domain {list_of_clock_domains}]

- percentage用来限制多少比例的单元可以翻转

set_atpg –power_effort

- 默认是low，一旦设置成high会尽可能优化功耗，但可能会影响coverage

(3) Low-Power Fill (低功耗填充):

图片3: Low-Power Fill

Low-Power Fill是在Scan Shift时实现low power填充DFF值，Low Power Fill的动作不影响测试覆盖率。相关命令：

set_atpg –fill adjacent

(4) Shift Power Budget for ATPG (ATPG移位功耗预算):

set_atpg –shift_power_effort { low|medium|high|d }

- 用high（或10）来让ATPG在产生向量时控制Shift功耗

set_atpg -shift_power_budget N

- N用来限制在Shift时SDFF最大翻转比率，超过这个比率的向量将会被抛弃

3. 设计流程

基于Synopsys的DFTMAX Ultra对现有流程影响很小，只需要在Design Compiler完成逻辑综合后进行扫描压缩电路植入即可。

图片4: Tradition Mode and DFTMAX Ultra Flow

传统Scan流程 vs DFTMAX Ultra流程对比：

传统Scan流程 (Tradition Scan Flow):

Design Ready → Logic Synthesis → Scan Insert → DFT Compiler → 
Layout Design → ATPG (TetraMAX) → END

DFTMAX Ultra流程 (DFTMAX Ultra Flow):

Design Ready → Logic Synthesis → Generate Scan Compression Logic (DFTMAX Scan Insert) →
Design Compiler / DFT Compiler → Layout Design → ATPG (TetraMAX) → END

关键差异: DFTMAX Ultra在综合后增加了一个"生成扫描压缩逻辑"的步骤，即通过DFTMAX Ultra插入Decompressor和Compressor逻辑。

第8页 — 3. 设计流程 (续) & 4. 分析结果

3. 设计流程 (续)

相关命令如下:

# 开启扫描压缩使能
Enable scan compression
设置内部扫描链数量、最大长度、输入输出Pin数量
Scan compression configuration chain_count  -max_length  inputs  outputs 
写出压缩和非压缩的spf文件，以及供物理实现时scan reorder的扫描链DEF文件
Write spf and def

注意事项: 由于加入的测试压缩电路中含有时序逻辑，在DFT模式下进行时序分析时需要注意将Scan_enable信号设置为clock。不要让后端过度优化Decompressor和Compressor，避免结构上的变化影响最终网表的向量产生。

4. 分析结果

4.1 Low-pin 结果

基于DFTMAX Ultra实现4 Pin的DFT设计，在原有7816三个Pin的基础上，增加一个Scan_enable管脚。Test mode进入通过7816的三个IO就可以实现。

图片5: 芯片管脚

芯片管脚配置：

Chip
├── IPAD_7816_RST_N    (I: 7816复位，复用当Scan测试时作为芯片复位端使用)
├── IPAD_7816_CLK       (I: 时钟，复用当做Scan Clock)
├── IOPAD_7816_IO       (IO: 7816 IO，当Scan测试时作为Scan Out使用)
├── VCC                 (电源)
├── GND                 (地)
└── Scan_enable         (I: 新增的Scan_enable管脚)

关键设计: Scan_in信号通过IOPAD_7816_IO复用实现。

第9页 — 4.1 Low-pin 结果 (续) & 4.2 Low-cost 结果

4.1 Low-pin 结果 (续)

表格2: 4Pin DFT 管脚列表

Name	I/O	Description
IPAD_7816_CLK	I	时钟，复用当做Scan Clock
IPAD_7816_RST_N	I	7816复位，复用当Scan测试时作为芯片复位端使用
IOPAD_7816_IO	IO	7816 IO，当Scan测试时作为Scan Out使用
Scan_enable	I	增加的Scan_enable管脚
VCC	--	电源
GND	--	地

结论: 仅需4个有效Pin即可实现完整的Scan测试，满足智能卡的low-pin需求。

4.2 Low-cost 结果

增加的数字逻辑面积是用于压缩和解压缩使用，门数仅占整个数字逻辑设计的0.9%，对面积的影响几乎可以忽略。

理论上的测试压缩比（内部扫描链数量与不压缩扫描链数量比）可以达到几百比一；但通过长时间研究发现扫描压缩电路寄存器长度与内部扫描链长度比在0.3:1时是比较好的平衡面积增加和时间减少收益的点。

图片6: 扫描压缩与时间变化的趋势

图片展示了不同内部扫描链数量下的扫描压缩比与时间变化趋势，包括： - 压缩时间与不压缩时间的比 (Y轴) - 增加寄存器个数与扫描链长度比 (Y轴) - 内部扫描链数量 (X轴: 10~300)

关键平衡点: 寄存器增加量与扫描链长度比约为30%时，压缩比和时间收益达到最佳。

第10页 — 4.2 Low-cost 结果 (续) & 4.3 Low-power 结果

4.2 Low-cost 结果 (续)

本次设计的DFF有4200个左右，因此内部设置为16条chain，每个chain有约260个DFF。

表格3: 测试时间列表

项目	非压缩 (cycle)	压缩 (cycle)	时间压缩比
Normal	3,775,323	410,956	9.19
Power-Aware DFT 插入100%门控	6,101,441	806,757	7.56
Power-Aware DFT 插入50%门控	6,030,810	777,827	7.75

分析: - 在Normal模式下，压缩比高达9.19倍 - 使用Power-Aware DFT技术后，非压缩测试时间增加（因门控引入额外逻辑），但压缩比依然保持在7.5~7.8倍 - 如果不使用Power-Aware DFT技术，理论压缩比可达到更高的9.19倍

4.3 Low-power 结果

为了降低功耗，使用Power-Aware DFT and ATPG技术，设置插入100%或50%门控，再配合TetraMAX工具生成低功耗测试向量。

相关命令:

set_scan_suppress_toggling \
    -selection_method auto \
    -total_percentage_gating 100/50

图片7: Power-Aware DFT在Shift阶段平均功耗

图表展示了每个Pattern在Shift阶段的average power对比： - Normal (橙色线): 平均功耗最高，波动最大 - Synopsys_100 Shift (蓝色线): 门控100%，平均功耗最低 - Synopsys_50 Shift (灰色线): 门控50%，功耗略高于100%门控但远低于Normal

表格4: 压缩模式下Shift阶段翻转率表

项目	压缩shift时平均翻转率	峰值翻转率
Normal	45.99%	206.89%
Power-Aware DFT 插入100%门控	22.54%	52.61%
Power-Aware DFT 插入50%门控	25.23%	51.03%

分析: - 不使用Power-Aware技术时，Shift平均翻转率高达46%，个别Pattern峰值超过200%，对供电系统冲击极大 - 使用Power-Aware技术后，平均翻转率控制在22~25%左右，峰值控制在约52% - 100%门控和50%门控的峰值控制效果接近

第11页 — 4.3 Low-power 结果 (续) & 4.4 Coverage 结果

4.3 Low-power 结果 (续)

图片8: 压缩模式下Shift阶段翻转率箱线图

三种模式的箱线图对比 (Normal, Synopsys_100 Shift, Synopsys_50 Shift)：

- Normal: 中位数翻转率约45%, 箱体范围约35-55%, 存在多个>100%的异常离散点(最高约200%) - Synopsys_100 Shift: 中位数翻转率约22%, 箱体范围约18-28%, 异常点最大约52% - Synopsys_50 Shift: 中位数翻转率约25%, 箱体范围约20-30%, 异常点最大约51%

结论: 采用了Power-Aware DFT and ATPG技术时的整体功耗更低，同时对异常离散点也控制得更好。

表格5: PTPX仿真功耗表

项目	PTPX仿真平均功耗	说明
Normal	1.6mw	不满足设计需求
Power-Aware DFT 插入100%门控	560uw	满足设计需求
Power-Aware DFT 插入50%门控	590uw	满足设计需求

重要结论: 通过PrimeTime PX仿真验证，使用Power-Aware DFT and ATPG技术，将原有1.6mw的功耗分别降低到560uw和590uw，足以满足在Scan测试时不使用额外供电的需求。100%门控和50%门控之间的功耗差异仅30uw，两者均能满足设计需求。

4.4 Coverage 结果

Low-pin技术对测试覆盖率影响不大（见图片9）。但低功耗技术会对测试覆盖率有所影响，如set_atpg -power_effort high命令。原本可以达到98%左右覆盖率的设计，在低功耗限制下覆盖率在94%~95%左右。

图片9: Normal模式下压缩比对Coverage影响

图表展示不同压缩比（2X, 4X, 8X, 16X, 24X, 32X, 48X, 64X）下的覆盖率变化： - 覆盖率范围: 97.5% ~ 99%+ - 压缩比对覆盖率的影响趋势

第12页 — 4.4 Coverage 结果 (续) & 4.5 Area 结果 & 5. 问题解决

4.4 Coverage 结果 (续)

表格6: Power-Aware DFT and ATPG在压缩和非压缩模式覆盖率

Name	非压缩模式Coverage	压缩模式Coverage
Normal	98.23%	98.50%
Power-Aware DFT 插入100%门控	93.58%	94.11%
Power-Aware DFT 插入50%门控	93.44%	93.91%

分析: - Normal模式下，压缩模式覆盖率(98.50%)略高于非压缩(98.23%) - 使用Power-Aware DFT后，覆盖率下降约4~5个百分点 - 100%门控和50%门控的覆盖率差异很小（约0.2%） - 需要在功耗控制和覆盖率之间做出权衡

4.5 Area 结果

目前采用Power-Aware DFT： - 设置为100%门控时：面积增加约5500门 - 设置为50%门控时：面积增加约2600门

比较PTPX仿真的结果（560uw vs 590uw），两个结果仅差30uw，都能满足设计需求，因此插入50%门控在面积控制方面更好——以牺牲极小的功耗优势，换取了约一半的面积开销。

5. 一些问题及解决

在设计过程中遇到了三个问题：

5.1 Decompressor 功耗控制

问题: Decompressor 解压缩器电路会随着时钟不停的工作，这在非测试态下带来额外的功耗。

解决方案: 通过Test_mode作为门控，将Decompressor的时钟进行门控，以达到降低正常模式下功耗的目的。

5.2 压缩模式调试迭代时间长

问题: 相比于传统DFT设计，调试压缩模式将花费更长的时间，而是否有问题都需要走完整个后端流程才能发现。然后再去解决并ECO或重新版图，周期长。

解决方案: 通过搭建门级仿真环境，在VCS仿真环境中增加+delay_mode_zero +tetramax参数，这样在门级就可以进行ATPG向量生成和仿真验证，提前发现问题，加速设计收敛。90%情况下的迭代都只有前端和综合过程，后端布局布线和后仿真只需做一次。

第13页 — 5.3 问题解决 (续) & 6. 结论 & 7. 参考文献

5.3 Low-power 带来的测试时间加长和Coverage 降低

问题: 低功耗、测试时间和Coverage是相互影响的因素。低功耗需要将原本一个Pattern可以覆盖的fault点分为2个甚至更多Pattern来覆盖，这就造成测试时间的增加。同时因为只能通过某种方法才能覆盖到的fault点，因为低功耗限制关系，将这个Pattern抛弃，造成Coverage的降低。

解决方案: 我们需要做的是在满足低功耗的前提条件下，适度优化，以降低对测试时间和Coverage带来的冲击，找到一个最佳的平衡点。

6. 结论及建议

智能卡领域low-pin、low-power和low-cost的需求，给SCAN设计方面提出了严峻的考验。

本文在智能卡产品上使用基于DFTMAX Ultra的DFT设计，成功实现了：

1. Low-pin: 仅需4个IO即可完成完整的Scan测试（含1个新增Scan_enable管脚），满足Nano-SIM 6触点(4有效)的限制 2. Low-cost: 测试时间压缩比高达7.56~9.19倍（取决于是否使用Power-Aware DFT），压缩逻辑面积仅占数字逻辑的0.9% 3. Low-power: 使用Power-Aware DFT and ATPG技术，Shift平均翻转率从46%降至22-25%，PTPX仿真平均功耗从1.6mw降至560-590uw，无需额外供电管脚

同时解决了Decompressor功耗控制、调试迭代周期长、低功耗与覆盖率权衡等实际工程问题。

可以预见，扫描压缩技术在未来智能卡产品测试上有着广阔的前景。

7. 参考文献

[1] dftug.pdf — DFT User Guide
[2] tmax_ug.pdf — TetraMAX User Guide
[3] DFTMAX_Ultra_customer_training.pptx — DFTMAX Ultra Customer Training

图片索引

共 7 张图片，存放于 SNUG_TPC_DFT_Unknown_基于DFTMAX-Ultra 实现low_paper_images/ 目录。（注：目录名含图片9张，论文实际引用9张图片，包括图片1-9。）

图片编号	所在页码	内容描述
图片1	第6页	Tradition Mode and DFTMAX Ultra Architecture — 传统扫描架构(单链) vs DFTMAX Ultra架构(Decompressor+多条内部链+Compressor)对比图
图片2	第6页	Power-Aware DFT — 通过Flop Gating减少Scan Shift时开关活动的原理图
图片3	第7页	Low-Power Fill — Scan Shift阶段低功耗DFF填充示意图(相邻填充策略)
图片4	第7页	Tradition Mode and DFTMAX Ultra Flow — 传统Scan流程 vs DFTMAX Ultra流程对比框图
图片5	第8页	芯片管脚 — 4Pin DFT设计的芯片管脚配置图(7816接口复用方案)
图片6	第9页	扫描压缩与时间变化的趋势 — 双Y轴图表: 压缩比(左Y)、寄存器/链长比(右Y) vs 内部扫描链数量(X)
图片7	第10页	Power-Aware DFT在Shift阶段平均功耗 — Normal/100%门控/50%门控三条曲线的逐Pattern功耗对比
图片8	第11页	压缩模式下Shift阶段翻转率箱线图 — Normal/100%门控/50%门控三种模式的箱线图统计对比
图片9	第11页	Normal模式下压缩比对Coverage影响 — 不同压缩比(2X~64X)下覆盖率的变化趋势

*本文由王辉在SNUG 2017发表，介绍了北京中电华大电子设计有限责任公司使用Synopsys DFTMAX Ultra工具在智能卡芯片上实现low-pin (4 IO)、low-cost (7.5-9.2倍压缩比)、low-power (560-590uw功耗) DFT设计的完整方法、结果分析和工程问题解决经验。*